iT邦幫忙

2022 iThome 鐵人賽

DAY 30
0
Security

區塊鏈與聯邦學習系列 第 30

聯邦學習(FL)與自然語言學習(Natural Language Processing, NLP)

  • 分享至 

  • xImage
  •  

對資料的和監管日益增加,使隱私保護變得更加重要。

聯邦學習(FL)提供大量協作學習方法,允許用戶將他們的資料保存在本地端。

FedNLP

一個聯邦學習(FL)自然語言(NLP)框架的常見應用:

  • 文本分類
  • 序列標註
  • 問答
  • seq2seq生成

利用「Transformer-Based模型」之間的通用介面語言模型,例如:BERT、BART等,各種非IID的聯邦學習(FL)方法。

  • 微調大型預訓練語言模型(Language Models, LMs)
    例如:BERT是最先進的高性能的NLP應用,適用於大規模集中訓練資料集。

隱私問題

訓練資料分佈在不同的客戶,並且出於隱私問題不能共享。

聯邦學習(FL)旨在使許多個人客戶,共同訓練他們的模型,同時保持他們的本地資料去中心化,和對其他用戶完全私有或集中伺服器。
聯邦學習(FL)有望成為一種有效的方法應用在NLP領域,其中有許多用戶生成的文本資料包含敏感或個人訊息。

有關資料隱私的相關訊息,例如:GPDR來自現實用戶的新興資料更加分散,形成多個分散的私有資料集,即「資料孤島」——跨不同的客戶端。
尊重用戶隱私並遵守根據這些規定,我們必須假設用戶的的資料不允許轉移到集中式伺服器或其他客戶端,客戶端不能共享其私人用戶資料。

一種常見的聯邦學習(FL)訓練模式方法是每個客戶端發送其模型參數到伺服器,它更新並發回在每一輪中向所有客戶提供全域模型。

儘管聯邦學習(FL)領域取得了不斷進步,NLP的研究和應用相當有限。


上一篇
聯邦學習與電腦視覺(Computer Vision, CV)
系列文
區塊鏈與聯邦學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言